{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "01972600",
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import sys\n",
    "import glob\n",
    "import numpy as np\n",
    "from tqdm import tqdm\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "import random\n",
    "import re\n",
    "import pandas as pd\n",
    "\n",
    "from striprtf.striprtf import rtf_to_text"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 100,
   "id": "81ce30fd",
   "metadata": {},
   "outputs": [],
   "source": [
    "sample = pd.read_csv('../data/sample.csv')\n",
    "from_folders = pd.read_csv('../data/from_folders.csv')\n",
    "external_data = pd.read_csv('../data/external_data.csv')\n",
    "external_data['text'] = external_data['text'].str.split('Обратите внимание', expand=True)[0]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 123,
   "id": "0dd9f2ec",
   "metadata": {},
   "outputs": [],
   "source": [
    "REPLACE_WORDS = {\n",
    "    \"доверенность\" : re.compile(r\"\\bд\\s*о\\s*в\\s*е\\s*р\\s*е\\s*н\\s*н\\s*о\\s*с\\s*т\\s*ь\\b\"),\n",
    "    \"договор\" : re.compile(r\"\\bд\\s*о\\s*г\\s*о\\s*в\\s*о\\s*р\\b\"),\n",
    "    \"акт\": re.compile(r\"\\bа\\s*к\\s*т\\b\"),\n",
    "    \"заявление\": re.compile(r\"\\bз\\s*а\\s*я\\s*в\\s*л\\s*е\\s*н\\s*и\\s*е\\b\"),\n",
    "    \"приказ\": re.compile(r\"\\bп\\s*р\\s*и\\s*к\\s*а\\s*з\\b\"),\n",
    "    \"счет\": re.compile(r\"\\bс\\s*ч\\s*е\\s*т\\b\"),\n",
    "    \"приложение\": re.compile(r\"\\bп\\s*р\\s*и\\s*л\\s*о\\s*ж\\s*е\\s*н\\s*и\\s*e\\b\"),\n",
    "    \"соглашение\": re.compile(r\"\\bс\\s*о\\s*г\\s*л\\s*а\\s*ш\\s*е\\s*н\\s*и\\s*e\\b\"),\n",
    "    \"договор оферты\": re.compile(r\"\\bд\\s*о\\s*г\\s*о\\s*в\\s*о\\s*р\\s*о\\s*ф\\s*е\\s*р\\s*т\\s*ы\\b\"),\n",
    "    \"устав\": re.compile(r\"\\bу\\s*с\\s*т\\s*а\\s*в\\b\"),\n",
    "    \"решение\": re.compile(r\"\\bр\\s*е\\s*ш\\s*е\\s*н\\s*и\\s*е\\b\")\n",
    "}\n",
    "\n",
    "MAPPING = {\n",
    "    \"proxy\": \"доверенность\",\n",
    "    \"contract\": \"договор\",\n",
    "    \"act\": \"акт\",\n",
    "    \"application\": \"заявление\",\n",
    "    \"order\": \"приказ\",\n",
    "    \"invoice\": \"счет\",\n",
    "    \"bill\": \"приложение\",\n",
    "    \"arrangement\": \"соглашение\",\n",
    "    \"contract offer\": \"договор оферты\",\n",
    "    \"statute\": \"устав\",\n",
    "    \"determination\": \"решение\",\n",
    "}"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 124,
   "id": "e3048f33",
   "metadata": {},
   "outputs": [],
   "source": [
    "def clean_text(text: str) -> str:\n",
    "    for key, value in REPLACE_WORDS.items():\n",
    "        text = re.sub(value, key, text)\n",
    "\n",
    "    text = re.sub(r'[^;:\\?!,\\.\\-а-яА-Яa-zA-Z\\s<]', '', text)\n",
    "    text = re.sub(r'\\s+', ' ', text)\n",
    "    text = re.sub(r'\\.\\.+', '', text)\n",
    "    \n",
    "    text = ' '.join([word for word in text.split() if len(word) > 1])\n",
    "    text = re.sub(r'\\s+', ' ', text)\n",
    "\n",
    "    return text\n",
    "\n",
    "\n",
    "def processing(df: pd.DataFrame) -> pd.DataFrame:\n",
    "    df_ = df.copy()\n",
    "    df_['text'] = df_['text'].str.lower()\n",
    "    df_['text'] = df_['text'].apply(clean_text)\n",
    "    return df_"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 125,
   "id": "1bccabec",
   "metadata": {},
   "outputs": [],
   "source": [
    "clear_sample = processing(sample)\n",
    "clear_from_folders = processing(from_folders)\n",
    "clear_external_data = processing(external_data)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 126,
   "id": "8bd7a719",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>class</th>\n",
       "      <th>text</th>\n",
       "      <th>clear_text</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>arrangement</td>\n",
       "      <td>соглашение расторжении трудового договора от г...</td>\n",
       "      <td>соглашение расторжении трудового договора от к...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>arrangement</td>\n",
       "      <td>соглашение предоставлении опциона на заключени...</td>\n",
       "      <td>соглашение предоставлении опциона на заключени...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>arrangement</td>\n",
       "      <td>соглашение реструктуризации задолженности г. и...</td>\n",
       "      <td>соглашение реструктуризации задолженности ижев...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>arrangement</td>\n",
       "      <td>дополнительное соглашение договору купли-прода...</td>\n",
       "      <td>дополнительное соглашение договору куплипродаж...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>arrangement</td>\n",
       "      <td>соглашение расторжении договора об оказании ус...</td>\n",
       "      <td>соглашение расторжении договора об оказании ус...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         class                                               text  \\\n",
       "0  arrangement  соглашение расторжении трудового договора от г...   \n",
       "1  arrangement  соглашение предоставлении опциона на заключени...   \n",
       "2  arrangement  соглашение реструктуризации задолженности г. и...   \n",
       "3  arrangement  дополнительное соглашение договору купли-прода...   \n",
       "4  arrangement  соглашение расторжении договора об оказании ус...   \n",
       "\n",
       "                                          clear_text  \n",
       "0  соглашение расторжении трудового договора от к...  \n",
       "1  соглашение предоставлении опциона на заключени...  \n",
       "2  соглашение реструктуризации задолженности ижев...  \n",
       "3  дополнительное соглашение договору куплипродаж...  \n",
       "4  соглашение расторжении договора об оказании ус...  "
      ]
     },
     "execution_count": 126,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "clear_sample.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 127,
   "id": "06e813cc",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>class</th>\n",
       "      <th>text</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>statute</td>\n",
       "      <td>утверждено на учредительной конференции предст...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>statute</td>\n",
       "      <td>министерство обороны российской федерации кора...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>statute</td>\n",
       "      <td>введен действие приказом министра обороны росс...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>statute</td>\n",
       "      <td>принят учредительным съездом профсоюзов рсфср ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>statute</td>\n",
       "      <td>утвержден всероссийским съездом адвокатов янва...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     class                                               text\n",
       "0  statute  утверждено на учредительной конференции предст...\n",
       "1  statute  министерство обороны российской федерации кора...\n",
       "2  statute  введен действие приказом министра обороны росс...\n",
       "3  statute  принят учредительным съездом профсоюзов рсфср ...\n",
       "4  statute  утвержден всероссийским съездом адвокатов янва..."
      ]
     },
     "execution_count": 127,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "clear_from_folders.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 128,
   "id": "ac53e13b",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>class</th>\n",
       "      <th>link</th>\n",
       "      <th>path</th>\n",
       "      <th>text</th>\n",
       "      <th>clear_text</th>\n",
       "      <th>clear_text_in_sample</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-registracziyu-ts-v-gibd...</td>\n",
       "      <td>доверенность г. ижевск дата выдачи: третье сен...</td>\n",
       "      <td>доверенность ижевск дата выдачи третье сентябр...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-zaverenie-kopij-dokumentov</td>\n",
       "      <td>ооо артемида г. ижевск, ул. сосновая, д. а, те...</td>\n",
       "      <td>ооо артемида ижевск ул сосновая тел огрн инн к...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-poluchenie-denezhnyh-sr...</td>\n",
       "      <td>общество ограниченной ответственностью сигма г...</td>\n",
       "      <td>общество ограниченной ответственностью сигма м...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-predstavlenie-interesov...</td>\n",
       "      <td>доверенность г. ижевск двадцать пятое сентября...</td>\n",
       "      <td>доверенность ижевск двадцать пятое сентября дв...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-poluchenie-trudovoj-kni...</td>\n",
       "      <td>доверенность г. ижевск тринадцатое марта две т...</td>\n",
       "      <td>доверенность ижевск тринадцатое марта две тыся...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   class                                               link  \\\n",
       "0  proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "1  proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "2  proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "3  proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "4  proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "\n",
       "                                                path  \\\n",
       "0  obrazec-doverennost-na-registracziyu-ts-v-gibd...   \n",
       "1  obrazec-doverennost-na-zaverenie-kopij-dokumentov   \n",
       "2  obrazec-doverennost-na-poluchenie-denezhnyh-sr...   \n",
       "3  obrazec-doverennost-na-predstavlenie-interesov...   \n",
       "4  obrazec-doverennost-na-poluchenie-trudovoj-kni...   \n",
       "\n",
       "                                                text  \\\n",
       "0  доверенность г. ижевск дата выдачи: третье сен...   \n",
       "1  ооо артемида г. ижевск, ул. сосновая, д. а, те...   \n",
       "2  общество ограниченной ответственностью сигма г...   \n",
       "3  доверенность г. ижевск двадцать пятое сентября...   \n",
       "4  доверенность г. ижевск тринадцатое марта две т...   \n",
       "\n",
       "                                          clear_text  clear_text_in_sample  \n",
       "0  доверенность ижевск дата выдачи третье сентябр...                     1  \n",
       "1  ооо артемида ижевск ул сосновая тел огрн инн к...                     1  \n",
       "2  общество ограниченной ответственностью сигма м...                     1  \n",
       "3  доверенность ижевск двадцать пятое сентября дв...                     1  \n",
       "4  доверенность ижевск тринадцатое марта две тыся...                     1  "
      ]
     },
     "execution_count": 128,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "clear_external_data.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 129,
   "id": "99c5d225",
   "metadata": {},
   "outputs": [],
   "source": [
    "external_data['clear_text'] = clear_external_data['text'].copy()\n",
    "sample['clear_text'] = clear_sample['text'].copy()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 130,
   "id": "c3190654",
   "metadata": {},
   "outputs": [],
   "source": [
    "external_data['clear_text_in_sample'] = np.where(\n",
    "    external_data['clear_text'].isin(sample['clear_text'].values),\n",
    "    1,\n",
    "    0\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 134,
   "id": "f1928004",
   "metadata": {},
   "outputs": [],
   "source": [
    "external_data.to_csv('../data/external_with_samplelabel.csv', index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 135,
   "id": "da2a8d82",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>class</th>\n",
       "      <th>link</th>\n",
       "      <th>path</th>\n",
       "      <th>text</th>\n",
       "      <th>clear_text</th>\n",
       "      <th>clear_text_in_sample</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-registracziyu-ts-v-gibd...</td>\n",
       "      <td>Доверенность\\n\\n\\n\\nг. Ижевск\\n\\nДата выдачи: ...</td>\n",
       "      <td>доверенность г. ижевск дата выдачи: третье сен...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-zaverenie-kopij-dokumentov</td>\n",
       "      <td>ООО \"Артемида\"\\n\\n426000, г. Ижевск, ул. Сосно...</td>\n",
       "      <td>ооо артемида г. ижевск, ул. сосновая, д. а, те...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-poluchenie-denezhnyh-sr...</td>\n",
       "      <td>Общество с ограниченной ответственностью \"Сигм...</td>\n",
       "      <td>общество ограниченной ответственностью сигма г...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-predstavlenie-interesov...</td>\n",
       "      <td>Доверенность\\n\\n\\n\\n\\n\\n\\n\\nг. Ижевск\\n\\nДвадц...</td>\n",
       "      <td>доверенность г. ижевск двадцать пятое сентября...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>proxy</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-doverennost-na-poluchenie-trudovoj-kni...</td>\n",
       "      <td>Доверенность\\n\\n\\n\\nг. Ижевск\\n\\n\\n\\nтринадцат...</td>\n",
       "      <td>доверенность г. ижевск тринадцатое марта две т...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1458</th>\n",
       "      <td>determination</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-reshenie-o-smene-yuridicheskogo-adresa...</td>\n",
       "      <td>ООО «Улыбка»\\n\\n\\n\\nРешение №6\\n\\n\\n\\nЕдинстве...</td>\n",
       "      <td>ооо улыбка решение единственного участника сме...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1459</th>\n",
       "      <td>determination</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-reshenie-uchreditelya-o-smene-direktor...</td>\n",
       "      <td>Решение №33\\n\\nЕдинственного участника ООО «Зе...</td>\n",
       "      <td>решение единственного участника ооо зеленая ми...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1460</th>\n",
       "      <td>determination</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-resheniye-ychrediteley-ob-odobrenii-kr...</td>\n",
       "      <td>РЕШЕНИЕ  № 123\\n\\nвнеочередного Общего собрани...</td>\n",
       "      <td>решение внеочередного общего собрания участник...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1461</th>\n",
       "      <td>determination</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-reshenie-o-smene-naimenovaniya-ooo</td>\n",
       "      <td>РЕШЕНИЕ № 07\\n\\nединственного Участника Общест...</td>\n",
       "      <td>решение единственного участника общества огран...</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1462</th>\n",
       "      <td>determination</td>\n",
       "      <td>https://assistentus.ru/wp-content/uploads/file...</td>\n",
       "      <td>obrazec-reshenie-uchreditelya-o-smene-direktora</td>\n",
       "      <td>Решение учредителя № 07\\n\\nОбщества с ограниче...</td>\n",
       "      <td>решение учредителя общества ограниченной ответ...</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>1463 rows × 6 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "              class                                               link  \\\n",
       "0             proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "1             proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "2             proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "3             proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "4             proxy  https://assistentus.ru/wp-content/uploads/file...   \n",
       "...             ...                                                ...   \n",
       "1458  determination  https://assistentus.ru/wp-content/uploads/file...   \n",
       "1459  determination  https://assistentus.ru/wp-content/uploads/file...   \n",
       "1460  determination  https://assistentus.ru/wp-content/uploads/file...   \n",
       "1461  determination  https://assistentus.ru/wp-content/uploads/file...   \n",
       "1462  determination  https://assistentus.ru/wp-content/uploads/file...   \n",
       "\n",
       "                                                   path  \\\n",
       "0     obrazec-doverennost-na-registracziyu-ts-v-gibd...   \n",
       "1     obrazec-doverennost-na-zaverenie-kopij-dokumentov   \n",
       "2     obrazec-doverennost-na-poluchenie-denezhnyh-sr...   \n",
       "3     obrazec-doverennost-na-predstavlenie-interesov...   \n",
       "4     obrazec-doverennost-na-poluchenie-trudovoj-kni...   \n",
       "...                                                 ...   \n",
       "1458  obrazec-reshenie-o-smene-yuridicheskogo-adresa...   \n",
       "1459  obrazec-reshenie-uchreditelya-o-smene-direktor...   \n",
       "1460  obrazec-resheniye-ychrediteley-ob-odobrenii-kr...   \n",
       "1461         obrazec-reshenie-o-smene-naimenovaniya-ooo   \n",
       "1462    obrazec-reshenie-uchreditelya-o-smene-direktora   \n",
       "\n",
       "                                                   text  \\\n",
       "0     Доверенность\\n\\n\\n\\nг. Ижевск\\n\\nДата выдачи: ...   \n",
       "1     ООО \"Артемида\"\\n\\n426000, г. Ижевск, ул. Сосно...   \n",
       "2     Общество с ограниченной ответственностью \"Сигм...   \n",
       "3     Доверенность\\n\\n\\n\\n\\n\\n\\n\\nг. Ижевск\\n\\nДвадц...   \n",
       "4     Доверенность\\n\\n\\n\\nг. Ижевск\\n\\n\\n\\nтринадцат...   \n",
       "...                                                 ...   \n",
       "1458  ООО «Улыбка»\\n\\n\\n\\nРешение №6\\n\\n\\n\\nЕдинстве...   \n",
       "1459  Решение №33\\n\\nЕдинственного участника ООО «Зе...   \n",
       "1460  РЕШЕНИЕ  № 123\\n\\nвнеочередного Общего собрани...   \n",
       "1461  РЕШЕНИЕ № 07\\n\\nединственного Участника Общест...   \n",
       "1462  Решение учредителя № 07\\n\\nОбщества с ограниче...   \n",
       "\n",
       "                                             clear_text  clear_text_in_sample  \n",
       "0     доверенность г. ижевск дата выдачи: третье сен...                     1  \n",
       "1     ооо артемида г. ижевск, ул. сосновая, д. а, те...                     1  \n",
       "2     общество ограниченной ответственностью сигма г...                     1  \n",
       "3     доверенность г. ижевск двадцать пятое сентября...                     1  \n",
       "4     доверенность г. ижевск тринадцатое марта две т...                     1  \n",
       "...                                                 ...                   ...  \n",
       "1458  ооо улыбка решение единственного участника сме...                     1  \n",
       "1459  решение единственного участника ооо зеленая ми...                     1  \n",
       "1460  решение внеочередного общего собрания участник...                     1  \n",
       "1461  решение единственного участника общества огран...                     1  \n",
       "1462  решение учредителя общества ограниченной ответ...                     0  \n",
       "\n",
       "[1463 rows x 6 columns]"
      ]
     },
     "execution_count": 135,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "external_dataхъ"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.12"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
